Econometria Aplicada à Finanças

Mestrado Profissional em Administração

Prof. Washington Santos da Silva

IFMG - Campus Formiga

13 de agosto de 2024

Modelos e Notação

População x Amostra

Escrevemos nosso modelo populacional (simples) como

\[ y_i = \beta_0 + \beta_1 x_i + u_i \]

e nosso modelo de regressão estimado com base na amostra como

\[ y_i = \hat{\beta}_0 + \hat{\beta}_1 x_i + e_i \]

Um modelo de regressão estimado produz estimativas para cada observação:

\[ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i \]

o que nos dá a reta de melhor ajuste através do conjunto de dados.

População x Amostra

População

Relação na População

\[ y_i = 2.53 + 0.57 x_i + u_i \]

População x Amostra

Amostra 1: 30 observações

Relação na População

\(y_i = 2.53 + 0.57 x_i + u_i\)

Relação na Amostra

\(\hat{y}_i = 2.36 + 0.61 x_i\)

População x Amostra

Amostra 2: 30 observações

Relação na População

\(y_i = 2.53 + 0.57 x_i + u_i\)

Relação na Amostra

\(\hat{y}_i = 2.79 + 0.56 x_i\)

População x Amostra

Amostra 3: 30 observações

Relação na População

\(y_i = 2.53 + 0.57 x_i + u_i\)

Relação na Amostra

\(\hat{y}_i = 3.21 + 0.45 x_i\)

População x Amostra

Simulação de Monte Carlo

  • Vamos repetir esse processo de amostragem e estimação 10.000 vezes.

Por que nos preocupamos com a População x Amostra?

  • Em média, nossas retas de regressão amostrais correspondem bem à reta populacional.

  • No entanto, retas individuais (amostras) podem realmente errar o alvo.

  • Diferenças entre amostras individuais e a população levam à incerteza para o econometrista.

Por que nos preocupamos com a População x Amostra?

Resposta

  • Incerteza importa.

  • \(\hat{\beta}\) em si é uma variável aleatória, que varia de amostra para amostra aleatória. Quando pegamos uma amostra e estimamos um modelo de regressão, não sabemos se é uma amostra ‘boa’ (\(\hat{\beta}\) está próximo de \(\beta\)) ou uma ‘amostra ruim’ (A amostra difere muito da população).

Por que nos preocupamos com a População x Amostra?

Incerteza

  • Estimar a incerteza é um conceito-chave em Econometria.

  • Estimativa de erros padrão para nossas estimativas.

  • Teste de hipóteses.

  • Correção para heteroscedasticidade e autocorrelação.

  • Primeiro, vamos atualizar como obdemos essas estimativas (incertas) em modelos de regressão.

Modelo de Regressão Linear

Estimador

  • Podemos estimar uma reta de regressão em R (lm(y ~ x, data frame)) e Python (smf.ols(y ~ x, data).fit()). Mas de onde vêm essas estimativas?

  • Alguns slides anteriores:

\[ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i \]

  • Que nos fornece a reta de melhor ajuste ao conjunto de dados.

  • Mas o que queremos dizer com “reta de melhor ajuste”?

Sendo a “Melhor”

O Que queremos dizer com “reta de melhor ajuste”?

  • Em Econometria, a reta de melhor ajuste significa a reta que minimiza a soma dos erros quadráticos (SSE = Sums of Squared Errors):

\(\text{SSE} = \sum_{i = 1}^{n} e_i^2\quad\) sendo \(\quad e_i = y_i - \hat{y}_i\)

  • O método dos Mínimos Quadrados Ordinários (OLS: Ordinary Least Squares) minimiza a soma dos erros quadrados.

Baseado em um conjunto de hipóteses (razoavelmente aceitáveis), o estimdor de MQO:

  • São não viesados (e consistentes);
  • É o melhor (variância mínima) estimador linear não viesado (Best Linear Unbiased Estimator (BLUE).

OLS e outros Estimadores

  • Vamos considerar o conjunto de dados que simulamos anteriormente.

OLS e outros Estimadores

Para qualquer reta estimada \(\left(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\right)\), podemos calcular os erros: \(e_i = y_i - \hat{y}_i\)

OLS e outros Estimadores

Para qualquer reta estimada \(\left(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\right)\), podemos calcular os erros: \(e_i = y_i - \hat{y}_i\)

OLS e outros Estimadores

Para qualquer reta estimada \(\left(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\right)\), podemos calcular os erros: \(e_i = y_i - \hat{y}_i\)

OLS e outros Estimadores

  • A SSE eleva os erros ao quadrado \(\left(\sum e_i^2\right)\): erros maiores geram penalidades maiores.

OLS e outros Estimadores

  • Os estimadores de MQO é a combinação de \(\hat{\beta}_0\) e \(\hat{\beta}_1\) que minimiza a SSE.

Mínimos Quadrados Ordinários

Formalmente

  • Na regressão linear simples, os estimadores de MQO de \(\hat{\beta}_0\) e \(\hat{\beta}_1\) são aqueles que minimizam a Soma dos Erros Quadrados (SSE), i.e.,

\[ \min_{\hat{\beta}_0,\, \hat{\beta}_1} \text{SSE} = \sum_i e_i^2 \]

  • Mas sabemos que \(\text{SSE} = \sum_i e_i^2\). Agora, usamos as definições de \(e_i\) e \(\hat{y}\).

\[ \begin{align} e_i^2 &= \left( y_i - \hat{y}_i \right)^2 = \left( y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i \right)^2 \\ &= y_i^2 - 2 y_i \hat{\beta}_0 - 2 y_i \hat{\beta}_1 x_i + \hat{\beta}_0^2 + 2 \hat{\beta}_0 \hat{\beta}_1 x_i + \hat{\beta}_1^2 x_i^2 \end{align} \]

Lembrete Minimizar uma função multivariada requer (1) derivadas de primeira ordem iguais a zero (as condição de 1.super[a]-ordem) e (2) derivada segunda negativa (condição de segunda ordem, concavidade voltda para cima).

Mínimos Quadrados Ordinários

Formalmente

  • Estamos chegando perto. Precisamos minimizar a SSE.

  • Mostramos como a SSE se relaciona com a amostra (os dados: \(x\) e \(y\)) e com os estimadores (i.e., \(\hat{\beta}_0\) e \(\hat{\beta}_1\)).

\[ \text{SSE} = \sum_i e_i^2 = \sum_i \left( y_i^2 - 2 y_i \hat{\beta}_0 - 2 y_i \hat{\beta}_1 x_i + \hat{\beta}_0^2 + 2 \hat{\beta}_0 \hat{\beta}_1 x_i + \hat{\beta}_1^2 x_i^2 \right) \]

  • Condições de primeira ordem, tomamos as primeiras derivadas da SSE em relação a \(\hat{\beta}_0\) e \(\hat{\beta}_1\).

\[ \begin{align} \dfrac{\partial \text{SSE}}{\partial \hat{\beta}_0} &= \sum_i \left( 2 \hat{\beta}_0 + 2 \hat{\beta}_1 x_i - 2 y_i \right) = 2n \hat{\beta}_0 + 2 \hat{\beta}_1 \sum_i x_i - 2 \sum_i y_i \\ &= 2n \hat{\beta}_0 + 2n \hat{\beta}_1 \overline{x} - 2n \overline{y} \end{align} \]

sendo \(\overline{x} = \frac{\sum x_i}{n}\) e \(\overline{y} = \frac{\sum y_i}{n}\) as médias amostrais de \(x\) e \(y\).

Mínimos Quadrados Ordinários

Formalmente

  • Então:

\[ \dfrac{\partial \text{SSE}}{\partial \hat{\beta}_0} = 2n \hat{\beta}_0 + 2n \hat{\beta}_1 \overline{x} - 2n \overline{y} = 0 \]

o que implica em:

\[ \hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x} \]

Agora precisamos encontrar \(\hat{\beta}_1\).

Tomamos a derivada da SSE em relação a \(\hat{\beta}_1\):

\[ \begin{align} \dfrac{\partial \text{SSE}}{\partial \hat{\beta}_1} &= \sum_i \left( 2 \hat{\beta}_0 x_i + 2 \hat{\beta}_1 x_i^2 - 2 y_i x_i \right) = 2 \hat{\beta}_0 \sum_i x_i + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i \\ &= 2n \hat{\beta}_0 \overline{x} + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i \end{align} \]

Mínimos Quadrados Ordinários

Formalmente

Igualamos a derivada a zero:

\[ \dfrac{\partial \text{SSE}}{\partial \hat{\beta}_1} = 2n \hat{\beta}_0 \overline{x} + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i = 0 \]

Como \(\hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x}\), temos que

\[ 2n \left(\overline{y} - \hat{\beta}_1 \overline{x}\right) \overline{x} + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i = 0 \]

fazendo a multiplicação, temos:

\[ 2n \overline{y}\,\overline{x} - 2n \hat{\beta}_1 \overline{x}^2 + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i = 0 \]

\[ \implies 2 \hat{\beta}_1 \left( \sum_i x_i^2 - n \overline{x}^2 \right) = 2 \sum_i y_i x_i - 2n \overline{y}\,\overline{x} \]

\[ \implies \hat{\beta}_1 = \dfrac{\sum_i y_i x_i - 2n \overline{y}\,\overline{x}}{\sum_i x_i^2 - n \overline{x}^2} = \dfrac{\sum_i (x_i - \overline{x})(y_i - \overline{y})}{\sum_i (x_i - \overline{x})^2} \]

Fim.

Mínimos Quadrados Ordinários

Estimadores de MQO

Agora temos os estimadores OLS para a inclinação (coeficiente angular):

\[ \hat{\beta}_1 = \dfrac{\sum_i (x_i - \overline{x})(y_i - \overline{y})}{\sum_i (x_i - \overline{x})^2} \]

e o intercepto:

\[ \hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x} \]

E sabemos de onde vem a parte dos mínimos quadrados do método dos Mínimos Quadrados Ordinários. 🎊

  • Vamos nos focar nas hipóteses e propriedades (implícitas) dos estimadores de OLS.

Estimadores de MQO: Hipóteses e Propriedades

Propriedades de um Estimador

Revisão: Função Densidade de Probabilidade

  • Lembre-se de que usamos funções densidade de probabilidade (FDPs) para descrever a probabilidade que uma VA numérica contínua assuma um intervalo de valores. (A área total = 1.)

  • Esses FDPs caracterizam distribuições de probabilidade, e as distribuições mais populares recebem nomes (por exemplo, normal, t-Student, Gama).

  • A probabilidade de uma VA normal padrão assumir um valor entre -1,96 e 1,96: \(\mathop{\text{P}}\left(-1,96 \leq X \leq 1,96\right) = 0,95\)

Propriedades de um Estimador

Qual estimador selecionar?

Imagine que estamos tentando estimar um parâmetro desconhecido \(\beta\), sendo que conhecemos as distribuições de amostragem de 3 estimadores concorrentes. Qual deles devemos escolher?

Propriedades de um Estimador

Quais as Propriedades de um bom Estimador?

  • Resposta 1: Viés

Em média (retirando muitas amostras e calculando o estimador), o estimador acerta o valor correto?

  • Mais formalmente: O valor esperado (média) da distribuição de amostragem do estimador é igual ao parâmetro que tenta estimar?

\[ \mathop{\text{Viés}}_\beta \left( \hat{\beta} \right) = \mathop{\boldsymbol{E}}\left[ \hat{\beta} \right] - \beta \]

Propriedades de um Estimador

Estimador Não Viesado: \(\mathop{\boldsymbol{E}}\left[ \hat{\beta} \right] = \beta\)

Estimador Viesado: \(\mathop{\boldsymbol{E}}\left[ \hat{\beta} \right] \neq \beta\)

Propriedades de um Estimador

Quais as Propriedades de um bom Estimador?

  • Resposta 2: Variância

As tendências centrais (meios) de distribuições concorrentes não são as únicas coisas que importam. Também nos preocupamos com a variância de um estimador.

\[ \mathop{\text{Var}} \left( \hat{\beta} \right) = \mathop{\boldsymbol{E}}\left[ \left( \hat{\beta} - \mathop{\boldsymbol{E}}\left[ \hat{\beta} \right] \right)^2 \right] \]

Os estimadores de variância mais baixa significam que obatemos estimativas mais próximas da média em cada amostra.

Propriedades de um Estimador

Quais as Propriedades de um bom Estimador?

  • Resposta 2: Variância

Propriedades de um Estimador

Quais as Propriedades de um bom Estimador?

  • Resposta 2: Variância

  • O tradeoff Viés-Variância

    • Estimadores com viés baixo tendem a ter variância alta.
    • Estimadores com viés alto tendem a ter variância baixa.

Devemos estar dispostos a assumir um pouco de viés para reduzir a variância?

  • Em Econometria, geralmente preferimos estimadores não viesados (ou consistentes).

  • Mas outras disciplinas (especialmente Ciência da Computação) “pensam” um pouco mais sobre esse tradeoff.

Trade-off entre Viés e Variância

Viés e Variância - Aprendizagem de Máquina/Estatísica

  • Viés: Erro sistemático causado por suposições simplificadas do modelo. Modelos simples têm alto viés e tendem a subajustar (underfitting) os dados.

  • Variância: Sensibilidade do modelo às variações nos dados de treino. Modelos complexos têm alta variância e tendem a sobreajustar (overfitting) os dados.

  • Trade-off:

    • Subajuste (Underfitting): Alto viés, baixa variância.
    • Sobreajuste (Overfitting): Baixo viés, alta variância.
  • Objetivo em ML: Encontrar o equilíbrio que minimiza o erro total, garantindo precisão e capacidade de generalização.

Propriedades dos Estimadores de MQO

Propriedades

Como você já deve ter adivinhado:

  • Os estimadores de MQO são não viesados.

  • Os estimadores de MQO tem a variância mínima entre todos os estimadores lineares não viesados.

  • Mas… essas propriedades (muito boas) dependem de um conjunto de Hipóteses:

Hipóteses dos MQO

Hipóteses

  1. A relação populacional é linear nos parâmetros com um erro aditivo.

  2. A variável \(X\) é exógena, i.e., \(\mathop{\boldsymbol{E}}\left[ u \mid X \right] = 0\).

  3. A variável \(X\) tem variação. E se houver múltiplas variáveis explicativas, elas não são perfeitamente colineares.

  4. Os erros populacionais \(u_i\) são independentes e idênticaticamente distribuídos como VA normais com média zero \(\left( \mathop{\boldsymbol{E}}\left[ u \right] = 0 \right)\) e variância \(\sigma^2\) (i.e., \(\mathop{\boldsymbol{E}}\left[ u^2 \right] = \sigma^2\)). Distribuídos independentemente e com média zero implicam conjuntamente \(\mathop{\boldsymbol{E}}\left[ u_i u_j \right] = 0\) para qualquer \(i\neq j\).

Propriedades dos Estimadores de MQO

Hipóteses

Hipóteses diferentes garantem propriedades diferentes:

  • Hipóteses (1), (2) e (3) tornam os estimadores MQO não viesados.

  • A Hipóteses (4) nos dá um estimador não viesado da variância do estimador de MQO.

Em Econometria, estudamos as muitas maneiras pelas quais o mundo real pode violar essas suposições. Por exemplo:

  • Relações não lineares em nossos parâmetros/distúrbios (ou especificações erradas).

  • Erros que não são distribuídos de forma idêntica e/ou não são independentes.

  • Violações da exogeneidade (especialmente o viés de variável omitida).

Hipóteses dos MQO

Valor Esperado (Esperança) Condicional

Para muitas aplicações, a hipótese mais importante é exogeneidade, i.e.,

\[ \begin{align} \mathop{E}\left[ u \mid X \right] = 0 \end{align} \]

mas o que isso realmente significa?

Para qualquer valor de \(X\), a média dos resíduos deve ser zero.

  • Por exemplo, \(\mathop{E}\left[ u \mid X=1 \right]=0\) e \(\mathop{E}\left[ u \mid X=100 \right]=0\)

  • Por exemplo, \(\mathop{E}\left[ u \mid X_2=\text{Grande Empresa} \right]=0\) e \(\mathop{E}\left[ u \mid X_2=\text{Pequena Empresa} \right]=0\)

  • Aviso: \(\mathop{E}\left[ u \mid X \right]=0\) é mais restritiva que \(\mathop{E}\left[ u \right]=0\)

Exogeneidade Válida

\(\mathop{E}\left[ u \mid X \right] = 0\)

Exogeneidade Inválida

\(\mathop{E}\left[ u \mid X \right] \neq 0\)

Incerteza e Inferência

Incerteza e Inferência

Tem mais?

Até este ponto, sabemos que o OLS tem algumas boas propriedades e sabemos como estimar os parâmetros de um modelo de regressão linear simples via MQO.

Nosso fluxo de trabalho atual:

  • Obtenha dados \((x_i, y_i)\)
  • Estime a regressão \(y_i\) contra \(x_i\)
  • Obtenha \(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1\)
  • Feito?

Mas como realmente aprendemos algo com este exercício?

Incerteza e Inferência

Há mais

Mas como realmente aprendemos algo com esse exercício?

  • Com base em \(\hat{\beta}_1\), podemos descartar valores hipotéticos anteriores?
  • Quão confiantes podemos estar na precisão de nossas estimativas?
  • Quão bem nosso modelo explica a variação que observamos em \(y\)?

Precisamos ser capazes de lidar com a incerteza. Entra: Inferência Estatística

Incerteza e Inferência

Aprendendo com nossos erros

  • Como nossa simulação anterior apontou, nosso problema com incerteza é que não sabemos se nossa estimativa está próxima ou distante do parâmetro populacional desconhecido.1

  • No entanto, nem tudo está perdido. Podemos usar os erros \(\left(e_i = y_i - \hat{y}_i\right)\) para ter uma ideia de quão bem nosso modelo explica a variação observada em \(y\).

  • Quando nosso modelo parece estar fazendo um “bom” trabalho, podemos estar um pouco mais confiantes em usá-lo para aprender sobre a relação entre \(y\) e \(x\).

Agora, precisamos apenas formalizar o que um “bom trabalho” realmente significa.

Incerteza e Inferência

Aprendendo com nossos erros

  • Primeiro, estimamos a variância de \(u_i\) (lembre-se: \(\mathop{\text{Var}} \left( u_i \right) = \sigma^2\)) usando nossos erros quadrados, i.e.,

\[ \hat{\sigma}^2 = s^2 = \dfrac{\sum_i e_i^2}{n - k} \]

sendo \(k\) o número de parâmetros que estimamos (por exemplo, \(\beta_0\) e \(\beta_1\) fornecem \(k=2\)).

  • \(s^2\) é um estimador não viesado de \(\sigma^2\).

Incerteza e Inferência

Aprendendo com nossos erros

Então estimamos a variância de \(\hat{\beta}_1\), que para regressão linear simples é:

\[ \mathop{\text{V}} \left( \hat{\beta}_1 \right) = \dfrac{s^2}{\sum_i \left( x_i - \overline{x} \right)^2} \]

o que mostra que a \(V(\hat{\beta}_1)\)

  1. aumenta à medida que a variabilidade (\(s^2\)) dos dados aumenta;
  2. diminui à medida que a variância de \(x\) aumenta

Incerteza e Inferência

Aprendendo com nossos erros

Mais comum: O erro padrão de \(\hat{\beta}_1\)

\[ \mathop{\hat{\text{SE}}} \left( \hat{\beta}_1 \right) = \sqrt{\dfrac{s^2}{\sum_i \left( x_i - \overline{x} \right)^2}} \]

Lembre-se: O erro padrão de um estimador é o desvio padrão da distribuição amostral do estimador.

Incerteza e Inferência

Aprendendo com nossos erros

Exibir o erro padrão dos estimadores é o padrão da função lm em R:

tidy(lm(y ~ x, pop_df))
# A tibble: 2 × 5
  term        estimate std.error statistic  p.value
  <chr>          <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)    2.53     0.422       6.00 3.38e- 8
2 x              0.567    0.0793      7.15 1.59e-10

Incerteza e Inferência

Aprendendo com nossos erros

  • Usamos o erro padrão de \(\hat{\beta}_1\), junto com \(\hat{\beta}_1\) em si, para aprender sobre o parâmetro \(\beta_1\).

  • Após derivar a distribuição amostral de \(\hat{\beta}_1\), temos duas opções (relacionadas) para inferência estatística formal (aprender) sobre nosso parâmetro desconhecido \(\beta_1\):

  • Intervalos de confiança: Usamos \(\hat{\beta}_1\) e seu erro padrão para criar um intervalo de confiança o qual, quando repetido, geralmente conterá o parâmetro verdadeiro.

  • Testes de hipóteses: Determinamos se há evidências estatisticamente significativas para rejeitar um valor hipotético ou intervalo de valores.

Incerteza e Inferência

Distribuição Amostral de \(\hat{\beta}\)

Queremos mostrar que, quando a variância dos erros \(\sigma^2\) é desconhecida e substituída pela sua estimativa \(\hat{\sigma}^2\), os estimadores normalizados seguem uma distribuição \(t\) de Student.

1: Distribuição Normal dos Estimadores

Partimos da suposição de que os erros \(\epsilon_i\) no modelo de regressão linear simples são i.i.d. \(N(0, \sigma^2)\). Sob essa suposição, sabemos que os estimadores \(\hat{\beta}_0\) e \(\hat{\beta}_1\) são variáveis aleatórias que seguem distribuições normais:

\[ \hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}\right) \]

\[ \hat{\beta}_0 \sim N\left(\beta_0, \sigma^2 \left(\frac{1}{n} + \frac{\bar{X}^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}\right)\right) \]

2: Estimativa da Variância Residual

A variância dos erros \(\sigma^2\) é desconhecida, então usamos a estimativa da variância residual \(\hat{\sigma}^2\):

\[ \hat{\sigma}^2 = \frac{1}{n-2} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 \]

Aqui, \(\hat{\sigma}^2\) é um estimador não viesado da variância \(\sigma^2\) e é baseado nos resíduos do modelo.

3: Erro Padrão e Normalização

O erro padrão do estimador \(\hat{\beta}_1\) (ou \(\hat{\beta}_0\)) é dado por:

\[ \text{SE}(\hat{\beta}_1) = \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^{n} (X_i - \bar{X})^2}} \]

Agora, normalizamos \(\hat{\beta}_1\) usando o erro padrão estimado:

\[ \frac{\hat{\beta}_1 - \beta_1}{\text{SE}(\hat{\beta}_1)} = \frac{\hat{\beta}_1 - \beta_1}{\frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^{n} (X_i - \bar{X})^2}}} \]

4: Distribuição \(t\) de Student

Para estabelecer a distribuição \(t\), consideramos duas propriedades:

  1. Distribuição \(Z\): Como \(\hat{\beta}_1\) é normalmente distribuído, podemos definir uma variável padronizada \(Z\):

\[ Z = \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\text{Var}(\hat{\beta}_1)}} = \frac{\hat{\beta}_1 - \beta_1}{\frac{\sigma}{\sqrt{\sum_{i=1}^{n} (X_i - \bar{X})^2}}} \sim N(0, 1) \]

  1. Distribuição Qui-Quadrado: A variância residual \(\hat{\sigma}^2\) está relacionada a uma soma de quadrados de variáveis normais, e assim:

\[ \frac{(n-2)\hat{\sigma}^2}{\sigma^2} \sim \chi^2_{n-2} \]

5: Distribuição \(t\) como uma Razão

A distribuição \(t\) de Student é definida como a razão entre uma variável \(Z\) normal padrão e a raiz quadrada de uma variável qui-quadrado (\(\chi^2\)) dividida por seus graus de liberdade. Aplicando essa definição ao caso do estimador \(\hat{\beta}_1\), temos:

\[ \frac{\hat{\beta}_1 - \beta_1}{\text{SE}(\hat{\beta}_1)} = \frac{Z}{\sqrt{\frac{\chi^2_{n-2}}{n-2}}} \sim t_{n-2} \]

Assim, a expressão $ $ segue uma distribuição \(t\) de Student com \(n-2\) graus de liberdade.

  • \(Z\): A normalização de \(\hat{\beta}_1\) usando a variância conhecida segue uma distribuição normal padrão.

  • \(t\): A distribuição \(t\) surge ao substituir a variância verdadeira \(\sigma^2\) por sua estimativa \(\hat{\sigma}^2\), o que incorpora a incerteza adicional devido à estimativa da variância residual.

Incerteza e Inferência

Intervalos de Confiança

Construímos intervalos de confiança de nível \((1-\alpha)\) para \(\beta_1\):

\[ \hat{\beta}_1 \pm t_{(\alpha/2,\text{df})} \, \mathop{\hat{\text{SE}}} \left( \hat{\beta}_1 \right) \]

\(t_{\alpha/2,\text{df}}\) denota o quantil \(\alpha/2\) de uma distribuiçào\(t\) com \(n-k\) graus de liberdade.

Por exemplo, 100 obs., dois coeficientes (i.e., \(\hat{\beta}_0\) e \(\hat{\beta}_1 \implies k = 2\)), e \(\alpha = 0.05\) (para um intervalo de confiança de 95%) nos dá \(t_{0.025,\,98} = -1.98\)

Incerteza e Inferência

Intervalos de Confiança

Construímos intervalos de confiança de nível \((1-\alpha)\) para \(\beta_1\):

\[ \hat{\beta}_1 \pm t_{(\alpha/2,\text{df})} \, \mathop{\hat{\text{SE}}} \left( \hat{\beta}_1 \right) \] Exemplo:

lm(y ~ x, data = pop_df) %>% tidy()
# A tibble: 2 × 5
  term        estimate std.error statistic  p.value
  <chr>          <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)    2.53     0.422       6.00 3.38e- 8
2 x              0.567    0.0793      7.15 1.59e-10

A estimativa do interval com 95% de confiança é então: \(0.567 \pm 1.98 \times 0.0793 = \left[ 0.410,\, 0.724 \right]\)

Incerteza e Inferência

Intervalos de Confiança

  • Então temos um intervalo de confiança para \(\beta_1\), i.e., $$.

O que isso significa?

  • Informalmente: O intervalo de confiança nos dá uma região (intervalo) na qual podemos depositar alguma confiança de que contenha o parâmetro.

  • Mais formalmente: Se repetidamente amostrarmos de nossa população e construirmos intervalos de confiança para cada uma dessas amostras, \((1-\alpha)\) por cento de nossos intervalos (por exemplo, 95%) conterá o parâmetro populacional em algum lugar no intervalo.

Incerteza e Inferência

Testes de Hipóteses

  • Em muitas aplicações, desajaos saber o que a evidência estatística diz sobre teorias existentes.

  • Queremos testar hipóteses apresentadas por autoridades, políticos, economistas, cientistas, amigos, vizinhos estranhos, etc.

  • Aumentar a presença policial reduz a criminalidade?

  • Construir um muro gigante reduz a criminalidade?

  • Fechar um governo afeta negativamente a economia?

  • Os padrões de qualidade do ar melhoram a saúde e/ou reduzem empregos?

Incerteza e Inferência

Testes de Hipóteses

  • Testes de hipóteses dependem de resultados e intuição muito semelhantes.

teste t: Uma hipótese (nula) afirma que \(\beta_1\) é igual a um valor \(c\), i.e., \(H_o:\: \beta_1 = c\)

A partir das propriedades do OLS, podemos mostrar que a estatística de teste

\[ t_\text{stat} = \dfrac{\hat{\beta}_1 - c}{\mathop{\hat{\text{SE}}} \left( \hat{\beta}_1 \right)} \]

possui uma distribuição \(t\) com \(n-k\) graus de liberdade.

Incerteza e Inferência

Testes de Hipóteses

  • Para um teste de nível \(\alpha\), bilateral, rejeitamos a hipótese nula quando:

\[ \left|t\_\text{stat}\right| > \left|t\_{1-\alpha/2,\,df}\right| \]

o que implica que a estatística de teste é mais extrema do que o valor crítico.

  • Como alternativa, podemos calcular o valor-p que acompanha a estatística de teste, e que efetivamente nos dá a probabilidade de obter uma estatística de teste mais extrema considerando que a hipótese nula fosse verdadeira.

  • Valores-p muito pequenos (geralmente < 0,05) significam que seria improvável obter os resultados se a hipótese nula fosse realmente verdadeira — tendemos a rejeitar o nulo para valores-p abaixo de 0,05.

Incerteza e Inferência

Testes de Hipóteses

  • R e Stata, por padrão, testam hipóteses com base no valor zero.
lm(y ~ x, data = pop_df) %>% tidy()
# A tibble: 2 × 5
  term        estimate std.error statistic  p.value
  <chr>          <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)    2.53     0.422       6.00 3.38e- 8
2 x              0.567    0.0793      7.15 1.59e-10
  • \(H_0: \beta_1 = 0\) vs. \(H_a: \beta_1 \neq 0\)

\(t_\text{stat} = 7.15\) e \(t_\text{0.975, 28} = 2.05\)

  • o que implica p-valor \(< 0.05\). Portanto, rejeitamos \(H_0\).